买燃油车看马力,买电动车看千瓦。选AI芯片呢?你会发现参数表上列着一串让人眼花缭乱的指标:TOPS、TFLOPS、FP16、INT8、MACs……它们全都跟“算力”有关,但每个单位代表完全不同的含义。选错了指标,你可能花大价钱买了一块“算力爆表”的芯片,却发现跑你的模型还不如一块便宜货。
这篇文章帮你把AI芯片的算力单位全部梳理清楚。读完你会知道:TOPS和FLOPS有什么区别?为什么INT8算力和FP16算力不能直接比较?选购芯片时到底该看哪个数字?
中文:每秒浮点运算次数。
这是衡量AI芯片最基础的指标之一,表示芯片每秒钟能完成多少次“浮点数运算”(带小数点的数字计算)。FLOPS的前缀决定了数量级:
MFLOPS:百万次/秒(10^6)
GFLOPS:十亿次/秒(10^9)
TFLOPS:万亿次/秒(10^12)
PFLOPS:千万亿次/秒(10^15)
EFLOPS:百亿亿次/秒(10^18)
FLOPS通常用于衡量训练阶段的算力,因为训练模型普遍使用FP32(单精度浮点数)或FP16(半精度浮点数)进行计算。以英伟达H100为例,其FP32算力为67 TFLOPS,FP16算力高达1979 TFLOPS(约2 PFLOPS)。
中文:每秒操作次数。
与FLOPS不同,OPS不区分整数还是浮点数,是一个更广义的单位。在AI推理(Inference)场景中,由于大量使用整数运算(INT8、INT4),业界通常用 TOPS(Tera Operations Per Second,每秒万亿次操作)来衡量推理算力。
一个芯片通常同时标两个数字:
训练算力用TFLOPS(浮点)
推理算力用TOPS(整数)
二者不能直接换算,因为浮点运算比整数运算更复杂。同一芯片的INT8 TOPS通常是FP16 TFLOPS的2-4倍。
AI芯片支持不同精度的计算,精度越高越准确,但速度越慢、功耗越大;精度越低速度越快、功耗越低。这就好比用高精度电子秤和普通台秤称东西,电子秤准但慢,台秤快但可能差几克。以下是常见精度级别:
用途:传统科学计算、AI模型训练早期。
算力参考:中端AI芯片约20-100 TFLOPS。
特点:准确但慢,能耗高。
适用场景:科研计算、物理模拟等需要高精度的科学计算任务。
用途:当前AI训练的主流精度。
算力参考:通常是FP32的2-4倍。
特点:精度够用且速度快,大部分大模型训练都跑在FP16上。
用途:谷歌、英伟达等力推的格式。
特点:与FP16位数相同,但动态范围与FP32相同(只是精度降低),在大模型训练中更稳定。
算力参考:与FP16算力相近,部分芯片略高。
用途:AI推理(即模型训练好后的实际使用)。
算力参考:通常是FP16的2-4倍。
特点:精度损失可接受(通常<1%),速度和功耗优势明显。
用途:边缘设备、端侧AI(手机、耳机、智能家居)。
算力参考:INT8的2倍左右。
特点:速度最快、功耗最低,适合内存带宽有限、对响应速度要求极高的设备端推理。
MACs(Multiply-Accumulate Operations):乘加运算次数。
AI模型中的核心运算是“矩阵乘法”——把两个矩阵的元素相乘后相加。每一次乘加算一次MAC。1个MAC等于2次操作(一次乘、一次加),但通常不换算成OPS。模型大小常用MACs或参数量(Parameters)来表示,例如ResNet-50约3.8G MACs,GPT-3约175B参数量。
在芯片选型中,参数量(Params) 通常用来描述模型存储大小,MACs用来衡量计算量需求。一款芯片的算力(TFLOPS/TOPS)必须大于模型的计算需求,才能流畅运行。
| 芯片型号 | 架构 | 训练算力(FP16) | 推理算力(INT8) | 主要应用 |
|---|---|---|---|---|
| 英伟达 H100 | Hopper | 1979 TFLOPS | 3958 TOPS | 大模型训练 |
| 英伟达 L40S | Ada | 733 TFLOPS | 1466 TOPS | 云端推理/渲染 |
| 英伟达 A100 | Ampere | 312 TFLOPS | 624 TOPS | 通用AI训练/推理 |
| 英伟达 L4 | Ada | 121 TFLOPS | 242 TOPS | 边缘推理 |
| 华为昇腾910B | Da Vinci | 320 TFLOPS(FP16) | 640 TOPS | 国产大模型训练 |
| AMD MI300X | CDNA 3 | 1300 TFLOPS(FP16) | 2600 TOPS | 云端训练/推理 |
| Google TPU v6e(Trillium) | — | 约900 TFLOPS(BF16) | — | 云推理/训练 |
| Intel Gaudi 3 | — | 约900 TFLOPS(BF16) | — | 云端训练/推理 |
| 高通骁龙X Elite | Hexagon NPU | — | 45 TOPS | PC端AI(Copilot+) |
| 苹果M4 NPU | 16核 | — | 38 TOPS | iPad/Mac端侧AI |
| 瑞芯微RK3588 | 三核NPU | — | 6 TOPS | 边缘设备(工业/IPC) |
| 联发科天玑9300+ | APU 790 | — | 10 TOPS | 手机端侧AI |
| 高通骁龙8 Gen 4 | Hexagon NPU | — | 22 TOPS | 手机端侧AI |
| Intel Lunar Lake NPU | 第四代NPU | — | 48 TOPS | AI PC(Copilot+) |
| 你的需求 | 主要看哪个算力指标 | 次要指标 | 举例 |
|---|---|---|---|
| 云端训练大模型(LLM) | FP16 / BF16 TFLOPS | 显存带宽(GB/s) | H100:1979 TFLOPS(FP16) |
| 云端推理(高精度) | FP16 / FP32 TFLOPS | 推理延迟 | 根据业务需求估算 |
| 云端推理(性价比) | INT8 TOPS | 吞吐量(请求/秒) | L40S:1466 TOPS |
| 端侧AI(PC/手机) | INT8 / INT4 TOPS | 能效比(TOPS/W) | 骁龙X Elite:45 TOPS |
| 边缘设备(工业/摄像头) | INT8 TOPS | 功耗(瓦特) | RK3588:6 TOPS |
| 嵌入式/物联网 | INT4 TOPS | 内存带宽 | — |
TOPS高不等于实际推理速度快。影响推理速度的因素包括:内存带宽(能否快速“喂”数据给计算单元)、算子库优化程度、功耗墙(是否因过热降频)。有的芯片标注TOPS很高,但实测速度反而不如低TOPS产品。
有些营销材料刻意模糊精度,混淆FP16和INT8的算力数据。选型前要确认你关注的精度是否与供应商给出的算力单位一致,同时留意是否存在其他影响实际性能的因素。
很多芯片宣传“峰值算力”是在实验室特定条件下测得的,实际部署时受散热、功耗、内存带宽限制,持续算力往往只有峰值的一半。所以实测远比标称重要。
在边缘部署中,功耗比算力更关键。一个100TOPS但100W的芯片,在工业现场可能因为散热问题根本无法使用。50TOPS但15W的芯片反而更合适。
AI芯片的算力单位体系复杂,FP16、INT8、TOPS、TFLOPS各有各的用途。选芯片,先确认你的使用场景:如果是训练模型,盯着FP16/BF16 TFLOPS和显存带宽;如果是端侧推理(手机/PC/边缘设备),盯着INT8 TOPS和能效比;如果是服务器推理,除INT8 TOPS外还要看吞吐量和延迟数据。
最重要的是,不要只看厂商的宣传册,尽量用你自己的模型在目标芯片上做实测。因为算力数字是“理论最高值”,真实世界里的功耗墙、散热限制、内存瓶颈,往往比算力本身更能决定芯片的实际表现。